BilliardPhys-Bench: evaluando el razonamiento físico de los LLM multimodales
BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.
BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.